作为固定计算的道德

Morality as Fixed Computation

❦

Toby Ord 评论道：

Eliezer，我刚重读了你的文章，并且在想，这是否可以作为你立场的一个简明总结（暂且不谈你是怎么得出这个立场的）：

「我应该做 X」，意思是：如果我获得了完全信息，我就会尝试去做 X。

Toby 是个行家，所以如果连他都没弄明白，我最好还是再试一次。让我换一种解释路径——一种更接近我自己当初走到这个立场时所走思路的解释路径。

假设你造出了一个 AI，而且——先撇开 AI 的目标系统不能建立在英语陈述之上、以及所有这类描述都只是梦想不谈——你试图把「做我想要的事」这一决定行动的原则灌输给这个 AI。

再假设，你把这个 AI 的设计做得足够接近目标——它不至于只是把宇宙铺满回形针、乳酪蛋糕，或者一堆心满意足的程序员的微型分子复制体——以至于它的效用函数，确实会对那些我们用英语描述为如下形式的世界状态赋予如下效用：

<程序员微弱地想要「X」，

存在 20 个 X>：+20

<程序员强烈地想要「Y」，

存在 20 个 X>：0

<程序员微弱地想要「X」，

存在 30 个 Y>：0

<程序员强烈地想要「Y」，

存在 30 个 Y>：+60

你当然看得出来，这会毁掉世界。

……因为如果程序员一开始只是微弱地想要「X」，而 X 又很难得到，AI 就会把程序员修改成强烈地想要「Y」——而 Y 很容易制造——然后再大量地实现 Y。比如说，「Y」所指的东西可能是铁原子——那可是高度稳定的。

你能给这个问题打补丁吗？不能。一般来说，有缺陷的 Friendly AI（友好型 AI）设计是无法靠打补丁修好的。

如果你试图给效用函数加上上界，或者让 AI 不去在乎程序员想要某样东西的程度有多高，这个 AI 仍然会有动机（作为一个期望效用最大化者）去让程序员想要某种几乎可以百分之百确定拿到的东西。

如果你试图让 AI 不能修改程序员，那它也就不能和程序员说话了（和一个人说话本身就会修改他）。

如果你试图排除某一类 AI 修改程序员的具体方式，那么这个 AI 就会有动机以超智能的方式去寻找漏洞，以及其他间接修改程序员的办法。

一般来说，有缺陷的 FAI（友好型 AI）设计是无法靠打补丁修好的。

我们自己并不会去设想未来并作出判断，认为：只要在某个未来里，我们的大脑想要某样东西，而那样东西也确实存在，那就是一个好未来。要是我们真是这么想的，我们就会说：「太好了！尽管把我们改造成强烈想要某种廉价东西吧！」但我们并不会这么说，这就意味着，这种 AI 设计在根本上就是有缺陷的：它会选择出与我们会选择的东西大不相同的结果；它判断某物是否可欲的方式，也会和我们的判断极不一样。这种核心性的不协调，不可能靠排除少数几种特定失效模式来修补。

Friendly AI 问题和道德哲学问题之间还存在一种对偶关系——不过你得把这种对偶关系的结构搭得恰到好处才行。所以，如果你更愿意这么说，核心问题就在于：这个 AI 的选择方式，与某种你知道的、真正正确之物的结构极不相像——先别管它和我们的选择方式像不像。这个问题的重点，不正是在于：仅仅想要某样东西，并不会让它因此就变成对的吗？

所以，这就是那个看起来带点悖论色彩的问题；我曾把它类比为下面这两者之间的区别：

一台计算器：当你按下「2」「+」和「3」时，它试图计算的是：

「2 + 3 等于多少？」

另一台计算器：当你按下「2」「+」和「3」时，它试图计算的是：

「当你按下『2』『+』和『3』时，这台计算器会输出什么？」

可以说，1 型计算器想要输出 5。

2 型「计算器」则可以返回任何结果；而在它返回那个结果的过程中，它也就成为了它内部所提出问题的正确答案。

我们自己更像是 1 型计算器。但那个假想中的 AI，却是按仿照 2 型计算器的方式来建造的。

现在再想象一下，1 型计算器正在试图造一个 AI，只不过这个 1 型计算器并不知道它自己的问题是什么。这个计算器凭借其本性不断在发问——它生来便已围绕着那个问题运动——但它并不了解自己的晶体管；它无法把那个问题打印出来，而那个问题极其复杂，并且没有简单的近似。

所以，这个计算器想造一个 AI（它其实是台挺聪明的计算器，只不过它接触不到自己的晶体管），并让这个 AI 给出正确答案。只是这个计算器没法把问题打印出来。于是，它想让 AI 去看看这个计算器本身——问题就写在那里面——然后回答 AI 从那些晶体管中发现其隐含的问题。但这件事不能靠那种廉价捷径来完成：写一个效用函数，说「对所有 X：若 ⟨计算器问出『X？』，答案为 X⟩，则效用为 1；否则效用为 0」，因为这实际上反映的是 2 型计算器的效用函数，而不是 1 型计算器的。

这就把我们带进了一些我在这里不打算展开的 FAI 问题（其中有些我自己也还在继续琢磨）。

然而，当你从 FAI 设计的细节里抽身出来，重新回到道德哲学的视角时，我们刚才谈的那件事，就是那个道德问题的对偶面：「可如果『正确』不过是一种偏好，那么任何人想要的任何东西就都是『正确』的了。」

关键概念在于：我们用「正确」来命名的东西，是一个固定的问题，或者也许是一个固定的框架。我们可能会遇到改变我们终极价值的道德论证，甚至会遇到改变我们认为什么才算道德论证的道德论证；尽管如此，这一切依然都生长自某个特定的起点。我们并不把自己体验为在体现这样一个问题：「我将决定去做什么？」——那会是一台 2 型计算器；那样一来，我们无论决定什么，它都会因此变成正确的。我们把自己体验为在提出这样一个被具身化的问题：「怎样才能让我的朋友和同胞免受伤害？怎样才能让我们大家都更开心？……」而这里的「……」大约还包含着一千样其他东西。

所以，「我应该做 X」并不意味着：如果我获得了完全信息，我就会尝试去做 X。

「我应该做 X」，意思是：X 回答了这样一个问题——「什么能拯救我的同胞？怎样才能让我们大家都更开心？怎样才能让我们对自己的生活拥有更多掌控？我们能讲出最好笑的笑话是什么？……」

而且，实际上，我也未必知道这个问题究竟是什么；我也许既无法把自己当前的猜测打印出来，也无法把包围着它的整个框架打印出来；但我知道——正如所有非道德相对主义者凭直觉都知道的那样——这个问题肯定不只是「我怎样才能为所欲为？」

当这两种表述开始显得像「snow」和雪那样截然不同的时候，你就算是已经为引文与所指对象分出了不同的桶。

Thoughts Memo 翻译合集

作为固定计算的道德